首页 >旅游新闻

新增GUI Agent能力!豆包1.5·视觉深度思考模型可完成多端复杂任务

/
来源:

考研信息网

作者:

手机查看

新增GUI Agent能力!豆包1.5·视觉深度思考模型可完成多端复杂任务  此外,该模型新增GUI Agent能力。基于强大的GUI定位性能,可在PC端、手机端等不同环境中完成复杂交互任务。例如,可对新开发的APP功能进行自动化检测,目前该功能已经应用于字节跳动多款APP产品的开发测试中。  同时,新增视频深度思考能力。模型学习了数万亿多模态标记数据,掌握广泛视觉知识,结合强化学习,使视觉推理能力大幅提升。例如,在复杂的图形推理题中,模型提出假设,进行推理检验,当发现和假设不一样时,还能进行不断反思,提出新的猜测,直到得出正确答案。  在视频理解方面,支持动态帧率采样,视频时序定位能力显著增强,结合向量搜索,可精准定位视频中与文本描述相对应的片段。。

责编:王敏


审签:

责编:王敏


审签:

相关推荐 换一换